AI资讯新闻榜单内容搜索- Transform

NeurIPS 2025 Spotlight | 条件表征学习：一步对齐表征与准则

一张图片包含的信息是多维的。例如下面的图 1，我们至少可以得到三个层面的信息：主体是大象，数量有两头，环境是热带稀树草原（savanna）。然而，如果由传统的表征学习方法来处理这张图片，比方说就将其送入一个在 ImageNet 上训练好的 ResNet 或者 Vision Transformer，往往得到的表征只会体现其主体信息，也就是会简单地将该图片归为大象这一类别。这显然是不合理的。

来自主题: AI技术研报

7017 点击 2025-10-16 14:43

ICCV 2025 | FDAM：告别模糊视界，源自电路理论的即插即用方法让视觉Transformer重获高清细节

针对视觉 Transformer（ViT）因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题，我们提出了一种即插即用、受电路理论启发的频率动态注意力调制（FDAM）模块。它通过巧妙地 “反转” 注意力以生成高频补偿，并对特征频谱进行动态缩放，最终在几乎不增加计算成本的情况下，大幅提升了模型在分割、检测等密集预测任务上的性能，并取得了 SOTA 效果。

来自主题: AI技术研报

6581 点击 2025-10-16 14:35

Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

为此，北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。Being-VL 的出发点是把这一步后置：先在纯自监督、无 language condition 的设定下，把图像离散化并「分词」，再与文本在同一词表、同一序列中由同一 Transformer 统一建模，从源头缩短跨模态链路并保留视觉结构先验。

来自主题: AI技术研报

7588 点击 2025-10-14 09:58

在WAIC现场，全球首个拥有「原生记忆力」的大模型亮相，但不是Transformer

国内 AI 创企 RockAI 提出的非 Transformer 架构 Yan 2.0 Preview。这个架构极大地降低了模型推理时的计算复杂度，因此可以在算力非常有限的设备上离线运行，比如树莓派。

来自主题: AI资讯

8960 点击 2025-07-26 19:51

首篇潜空间推理综述！模型思考不必依赖Token，带宽暴增2700+倍

大模型在潜空间中推理，带宽能达到普通（显式）思维链（CoT）的2700多倍？

来自主题: AI技术研报

8774 点击 2025-07-16 15:26

EasyCache：无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

近年来，随着扩散模型（Diffusion Models）和扩散 Transformer（DiT）在视频生成领域的广泛应用，AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型，已经能够生成结构清晰、细节丰富且高度连贯的长视频内容，为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变革。

来自主题: AI技术研报

7622 点击 2025-07-14 10:42